Policy Gradient
entropy制約項付きのpolicy gradientとQ学習は類似しており,ある仮定のもとでは等価.